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摘要 : Fortran 作为 世界 上 第 一 个 通用 


的 高 


在 科学 和 工程 数 


计算 领域 得 到 了 广泛 


的 应 用 ， 


= 


最 初 的 Fortran 语言 


其 发 明年 代 ， 


RM 


FF 


行 计算 。 


Er pH 


高 性 


级 程序 设计 语言 , 已 经 经 历 了 50 多 年 的 发 展 和 多 种 版 本 的 演变 ， 
能 计算 领域 最 流行 的 程序 语言 之 一 。 


受 限 


Klik, 


能 力 以 及 保证 程 


字 的 可 移植 性 ， 


学 术 界 和 - 


-业界 在 


不 同时 代 都 提 昌 


为 了 增加 和 增强 Fortran 用 于 并 行 计算 的 
上 了 大 量 的 针对 以 前 Fortran 版 本 的 并 行 


扩展 ， 其 中 一 些 已 成 为 了 1 


: 式 或 业界 的 标准 


I 得 到 了 |) 


的 Fortran 语言 的 


广泛 支持 和 接受 


行 


泛 的 应 用 。 


本 文 将 综述 从 Fortran 77 以 来 ， 被 业界 


扩展 及 其 特点 、 


关键 字 : Fortran 并 行 计算 程序 设计 
1 Fortran 语言 概述 


1.1 Fortran 语言 的 诞生 


当时 计算 机 


为 程序 员 提供 的 “自动 编程 ”系统 ， 主 要 也 是 关心 如 4 


# 令 、 变 址 寄存 器 ， 


在 1954 年 以 前 ， 几 乎 所 有 的 程序 都 
生成 一 个 有 效 程序 看 作 是 一 项 复杂 而 又 富有 


Ši 
7€ 


SKIN 


青 况 和 应 


用 机 器 语言 或 汇编 语言 编写 的 。 当 时 ， 程 序 员 把 
创造 力 的 艺术 活动 ,他们 的 精力 主要 都 花 在 克服 
于 技术 限制 而 产生 的 各 种 障碍 上 , 如 没有 变 址 寄存 器 , 没有 浮 点 操作 等 。 当时， 


可 克服 上 述 不 足 。 这 些 系统 允许 有 浮 点 


工 计算 机 ?。 这 种 人 工 机 比 实际 机 器 要 容易 编程 ， 但 是 所 有 这 些 早期 “自动 编程 ” 


放 改 进 了 输入 /输出 指令 ， 实 际 上 是 一 种 与 实际 机 器 有 不 同 操作 码 的 “人 


系统 使 用 


起 来 开销 过 大 ， 通 常 它 们 会 因此 使 机 器 运行 速度 降低 80%~90% 。 

其 实 ， 在 1954 年 前 后 ， 花 在 程序 员 上 的 投资 已 接近 计算 机 本 身 的 价值 。 而 且 计 算 机 的 
使 用 时 间 有 1/4 到 一 半 是 花 在 程序 的 排 错 上 。 这 样 ， 编 程 和 排 错 就 占据 了 一 台 计 算 机 运行 投 
资 的 3/4。 随 着 计算 机 的 价格 越 来 越 便宜 ， 这 种 状况 也 变 得 更 加 严重 。 

正 是 在 上 述 因 素 的 驱使 下 ,1953 ER, 约翰 .巴克 斯 (John Backus) "ji (th, ITER IBM 
公司 建议 成 立 一 个 小 型 研究 小 组 , 研究 开发 一 种 更 加 有 效 更 加 经 济 的 编程 方法 ， 以 改变 当时 
IBM 生产 的 704 计算 机 编程 效率 低下 的 状况 。 该 建议 被 当时 的 IBM 公司 老板 卡 斯 伯 特 。 医 
德 (Cuthbert Hurd) 采纳 ， 研 究 小 组 随即 在 巴克 斯 领导 下 展开 工作 。 在 1954 年 中 期 产生 了 


一 种 有 相当 功能 和 灵活 性 的 初期 编程 
FORmula TRANslation System (FORTRAN, IBM 数学 公式 翻译 系统 )。 由 


要 用 于 科学 计算 , 该 语言 的 设计 上 
成 充分 有 效 的 目标 程 


Ao 


语言 规范 ， 这 种 语言 


标 则 在 以 充分 低 的 代价 和 


aay 
Li 


Ne 


时 称 作 IBM Mathematical 
于 当时 计算 机 主 
含有 丰富 数学 表达 式 的 程序 翻译 


序 。 该 项 目的 初衷 纯粹 是 为 BM 内 部 研究 之 用 ， 但 在 公布 了 该 语言 的 
期 报告 后 ， 引 起 IBM 客户 的 极 大 兴趣 。 于 是 ，IBM 做 出 决定 ， 保 证 每 个 购买 704 计算 机 


的 客户 在 他 们 的 机 器 上 均 能 使 用 Fortran 语言 。 该 版 本 称 为 Fortran I. 
1.2 Fortran 语言 的 标准 化 活动 


自从 Fortran 语言 问世 以 来 ， 


经 过 不 断 发 展 ，Fortran I 形成 了 很 多 不 同 版 本 


村 


Hite LARK, TMT REAP, 


’ AN 


其 


中 最 为 流行 的 是 1958 年 出 现 的 


Fortran II. Fortran II 对 Fortran 工 进 行 了 很 多 扩充 〈 如 引进 了 子 程序 )， 在 很 多 机 器 上 得 


17 


型 


Fortran 的 并 行 扩 


以 实现 。 其 后 出 现 的 Fortran M 未 在 任何 计算 机 上 实现 。1962 年 出 现 的 Fortran IV 对 原来 


的 Fortran 作 了 一 些 改变 , 导致 Fortran II 源 程序 在 Fortran IV 编译 程序 下 不 能 


部 直接 使 


用 ， 产 生 了 语言 不 兼容 的 问题 ， 形 成 了 Fortran II 和 Fortran IV 两 种 程序 设计 语言 共存 的 


局 面 。 


卫 
地 产 4 


mT TT 


了 极 大 的 不 便 。 用 户 迫 切 希 望 有 能 在 各 种 机 型 上 互 换 通 月 
言 的 标准 化 工作 变 得 十 分 迫切 。1962 年 5 月 ， 当 时 的 


NIST—National Institute of Standards and Technology) 成 


Fortran X3.9-1966 (相当 于 Fortran IV). 


因为 Fortran 满足 了 现实 的 需要 ， 所 以 它 传播 得 很 快 ， 在 传播 和 使 用 过 程 中 不 可 各 免 
了 多 种 方言 版 本 。 各 种 Fortean 方言 的 语义 和 语法 的 规定 不 完全 一 致 ， 这 给 用 户 带 来 


日 的 Fortran 语言 。 因 此 Fortran 语 


美国 标准 化 协会 CASA, American 
Standard Association， 后 来 改名 为 ANSI 一 American National Standards Institute， 现 名 为 
立 了 工作 组 开展 此 项 工作 ，1966 年 


正式 公布 了 两 个 美国 标准 文本 : 标准 基本 Fortran X3.10-1966 (相当 于 Fortran I) 和 标准 


由 于 Fortran 语言 在 国际 上 的 广泛 使 用 ，1972 年 国际 标准 化 组 织 (ISO，International 
Standard Organization) 公布 了 ISO Fortran 标准 , 即 《 程 序 设计 语言 Fortran ISO 1539-1972), 
它 分 为 三 级 ， 一 级 Fortran 相当 于 Fortran IV, Z% Fortran 介 于 Fortran II 和 Fortran IV 


之 间 ， 三 级 Fortran 相当 于 Fortran II. 


Fortran IV 〈 即 Fortran 66) 流行 了 十 几 年 ， 几 乎 统治 了 所 有 的 数值 计算 领域 。 许 多 应 
用 程序 和 程序 库 都 是 用 Fortran IV 编写 的 。 但 很 多 编译 程序 并 不 向 这 一 标准 靠拢 ， 它 们 往 


往 为 实现 一 些 有 用 的 功能 而 忽略 标准 ; 另外 , 在 结构 化 程序 设计 方法 提出 以 后 ， 人 们 开始 感 


到 Fortran IV 已 不 能 满足 要 求 。Fortran IV 不 是 结构 化 的 语言 ， 没 有 直接 实现 三 种 基本 结 


构 的 语句 ， 在 程序 中 往往 需要 用 一 些 GOTO 语句 以 实现 特定 的 算法 ; 


Fortran 源 程序 能 够 移植 ， 产 生 了 “ 预 处 理 程序 ” 通过 预 处 理 程序 读 入 非 标准 的 For 
源 程 序 , 生成 标准 的 Fortran 文本 , 但 这 种 自动 生成 的 Fortran 程序 通常 让 人 难以 阅读 到 


而 且 为 了 使 非 标准 的 


tran 


E 解 。 


美国 标准 化 协会 在 1976 年 对 ANSI X3.9-1966 Fortran 进行 了 修订 ， 基 本 上 把 各 厂家 行 


之 有 效 的 功能 都 吸收 了 进去 ， 此 外 又 增加 了 不 少 新 的 内 容 ，1978 年 4 月 美国 标准 化 协会 正 


式 公 布 将 它 作 为 美国 国家 标准 ， 即 ANSI X3.9-1978 Fortran， 称 作 Fortran 77。1980 Œ, 
Fortran 77 被 接受 为 国际 标准 ， 即 《程序 设计 语言 Fortran ISO 1539-1980》。 这 种 新 标准 并 


不 是 各 非 标准 Fortran 的 公共 子 集 ， 而 是 自 成 一 体 的 新 语言 。 我 国 制订 的 Fortran 标准 


， 基 


本 采用 了 国际 标准 ( 即 Fortran 77), F 1983 年 5 月 公布 执行 ,标准 号 为 GB3057-82 Fortran 
77 还 不 是 完全 结构 化 的 语言 ， 但 由 于 增加 了 一 些 结构 化 的 语句 ， 使 Fortran 77 能 用 于 编写 


适用 于 非 数 值 运算 领域 。 


结构 化 程序 。 此 外 ， 还 扩充 了 字符 处 理 功 能 ， 使 Fortran 不 仅 可 用 于 数值 计算 领域 . 还 可 以 


因为 Fortran 77 有 着 明显 的 局 限 性 ， 为 了 引入 一 些 新 的 功能 ， 适 应 语言 的 发 展 ，ANSI 
在 80 年 代 初 期 开始 准备 制定 Fortran 8x 标准 。 当 初 为 了 与 前 一 标准 相对 应 ， 设 想 是 x=8。 
由 于 要 将 Fortran 77 作为 一 个 子 集 ， 同 时 又 要 确保 程序 的 高 效率 ， 其 标准 化 的 工作 花 
JLE, RE 1991 年 通过 了 Fortran 90 新 标准 ANSI X3.198-1991， 相 应 的 国际 化 标准 组 织 


了 十 


的 编号 为 ISO/IEC1539:1991。 新 的 Fortran 标准 废弃 了 过 时 的 严格 的 源 程序 书写 格式 ， 改 善 
了 语言 的 正规 性 ， 并 提高 了 程序 的 安全 性 ， 功 能 有 更 大 的 扩充 ， 是 一 个 能 适应 现代 程序 设计 
思想 的 现代 程序 设计 语言 。 为 了 保护 对 Fortran 77 用 户 在 软件 开发 上 的 巨大 投资 ， 整 个 


Fortran 77 被 作为 Fortran 90 的 一 个 严格 子 集 。 


随 着 其 他 程序 设计 语言 的 迅速 发 展 ，Fortran 不 再 是 唯一 广泛 使 用 的 程序 设计 语言 。 然 
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和 


而 ， 尽 管 在 一 些 特殊 领域 使 用 其 他 程序 语言 更 为 合适 ， 但 在 科学 和 - 
的 生命 力 在 于 它 能 紧 跟 时 代 的 发 展 不 断 更 


Fortran 仍 具 有 强 


大 的 优势 。 其 强大 
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[ 程 技术 数值 计算 领域 ， 


新 标准 ， 每 次 


新 的 文本 推出 都 在 功能 上 有 突破 性 进展 ,例如 ，Fortran 90 不 仅仅 是 将 已 有 的 语言 进行 标准 


化 ， 更 重要 的 
新 月 异地 发 


F 


长 。 


是 吸取 了 一 些 其 他 语言 的 优点 。 所 以 ， 


EI 
里 


随 着 
它 是 Fortran 90 
消息 传递 程序 的 负担 。HPF-1.0 


巨型 计算 机 (向 量 机 和 并 行 机 ) 的 异军突起 , 出现 了 新 的 高 性 
的 一 个 扩展 子 集 ， 主 要 用 于 分 布 式 内 存 计算 机 上 的 
的 语言 定义 是 在 1992 年 的 超级 计算 


式 文本 是 在 1993 年 公布 的 。 


后 几 年 
于 1997 年 发 布 了 HPF 2.0 语言 定义 ,Fortran 95 则 包含 了 许多 HPF 的 新 功能 ,在 Fortran 90 


的 会 议 上 又 对 它 进 行 了 修改 、 


出 现 之 前 , 在 并 行 机 
系统 进行 


上 运行 程序 需要 结合 专门 的 向 站 


然 Fortran 语言 历史 悠久 ， 但 仍 在 日 


电化 子 程 序 库 ,或 者 是 依赖 Fortran 编译 


fÉ Fortran 语言 (HPF)， 
编程 ， 以 减轻 用 户 编写 
国际 会 议 上 做 出 的 ， 正 
重 定 义 、 注 释 等 工作 ， 


动向 量化 。 而 Fortran 90 之 后 ， 程 序 员 在 编程 时 可 有 目的 地 控制 并 行 化 。 


在 2004 年 后 ， 又 陆续 公布 了 文 持 面向 对 象 编程 的 Fortran 2003 标准 ， 以 及 再 后 面 的 


Fortran 2008 标准 等 。 


2 


Fortran 77 以 来 的 并 行 扩展 


Fortran 语言 发 展 过 程 是 


随 着 程 


序 设计 方法 飞速 发 


标准 和 并 行 计算 直接 相关 的 扩 
个 概述 。 


2.1 Fortran 77 


Fortran 77 相对 Fortran 66 在 许多 方面 做 了 重要 改进 
功能 ， 使 之 能 应 用 于 非 数 值 计 算 领 域 。Fortran 77 还 增加 了 
使 写 出 的 程序 趋 于 结构 化 ， 可 读 性 加 强 。 此 外 ， 


字符 处 理 


HJ, Fortran 77 扩充 了 


块 IF 语句 、ELSE 语句 、END IF 语句 等 ， 
功能 和 文件 处 理 


Fortran 77 还 增强 了 输入 输出 的 


o Fortran 


能 力 , 对 Fortran 66 


展 而 逐渐 演进 的 过 程 。 
展 在 数量 上 并 不 多 ， 以 下 是 ANSIASO Fortran 标准 发 展 的 一 


进入 Fortran 


最 初 是 为 数值 计算 设计 


标准 中 的 许多 部 分 做 了 


改进 (如 允许 不 同类 型 变量 和 数值 的 混合 运算 , 数组 下 界 可 以 是 负数 和 零 ， 数 组 下 标 表达 式 


可 以 为 任意 的 整 型 表达 式 等 )。 
HUEI Feo FDI, 


E 

行 处 理 的 工具 ); 
E IMPLICIT 语句 ; 
E 


言 支 持 ); 


直接 访问 文件 读 写 ; 


内 部 函数 的 通用 名 称 ; 


INCLUDE 语句 ; 


PARAMETER 语句 〈 以 指定 常数 ); 
SAVE 语句 〈 以 保存 本 地 变量 ); 


DO WHILE 和 END DO 语句 ; 


IMPLICIT NONE 变量 〈 用 于 IMPLICIT 语句 ); 


CHARACTER 数据 类 型 〈 极 大 地 扩展 了 字符 输入 和 输出 以 及 对 基于 字符 的 数据 进 


IF 语句 块 ， 以 及 可 选 的 ELSE 和 ELSE IF 从 句 〈 提 供 改 进 了 的 对 结构 化 编程 的 语 


OPEN, CLOSE 和 INQUIRE 语句 〈 以 改进 读 写 (IO) 能 力 ); 


型 


Fortran 的 并 行 扩 


E ”位 处 理 内 部 函数 (基于 类 似 的 包含 在 工业 实时 Fortran (ANSI/ISA S61.1 (1976)) 
中 的 函数 )。 
1991 年 推出 的 IEEE 1003.9 POSIX 标准 版 为 Fortran 77 的 编程 人 员 提 供 了 POSIX 系统 

上 的 调用 ， 在 文件 上 定义 了 超过 一 百 种 的 功能 调用 ， 人 允许 存 取 POSIX 兼容 的 进程 控制 

(process control)、 信 和 号 处 理 〈signal handling)、 文 件 系统 控制 〈file system control)、 设 备 
控制 (device control)、 过 程 指定 (procedure pointing)， 以 及 流 输入 与 输出 (stream I/O). 
于 这 一 版 本 成 功 地 改变 了 Fortran 77 开发 流程 ， 使 得 原本 过 于 缓慢 重复 的 编程 设计 
可 以 顺利 地 应 付 计 算 机 领域 迅速 的 变化 。 


2.2 PCF Parallel Fortran 


PCF Parallel Fortran 是 由 布鲁斯 利 热 (Bruce Leasure )“ ALF 1991 年 提交 给 Fortran 
标准 化 委员 会 的 一 个 并 行 扩 展 ， 该 扩展 基于 Fortran 77， 添 加 了 支持 共享 内 存 多 处 理 器 体系 
结构 的 语句 ， 使 得 程序 员 可 以 指定 线程 数目 ， 标 定 私 有 /共享 数据 ， 加 锁 并 控制 线程 顺序 。 


计算 划分 方面 ， 主 要 增加 了 PARALLEL DO 和 PARALLEL SECTION 两 个 结构 。 其 
中 PARALLEL DO 用 于 标记 没有 依赖 的 循环 ， 执 行 中 不 保证 循环 下 标的 顺序 。 当 需要 在 进 
程 执 行 并 行 段 落 之 中 进行 同步 控制 、 通 信 时 ， 提 供 了 加 锁 、 指 定 CRITICAL SECTION 和 
全 局 EVENT 来 实现 。 


值得 注意 的 是 ，PCF Parallel Fortran 并 没有 要 求 编译 器 对 死 锁 进行 处 理 ， 因 此 程序 员 
需要 自己 考虑 锁 或 事件 可 能 引发 的 死 锁 情况 。PCEF Parallel Fortran 在 早期 的 机 器 如 Cray 
T3E 上 得 到 了 实现 ， 但 其 扩展 最 终 没有 进入 Fortran 标准 。 


2.3 Fortran 90 


Fortran 90 是 Fortran 77 的 后 续 版 本 , 经 过 长 时 间 的 延迟 , 于 1992 年 正式 发 布 。 Fortran 
90 对 Fortran 77 的 修改 集中 在 程序 设计 方面 S14 


加 ”允许 自由 格式 源 代码 输入 ， 以 及 小 写 的 Fortran KTF, 

加 ”引入 模块 ， 将 有 关联 的 过 程 和 数据 组 合 在 一 起 ， 使 它们 可 以 被 其 它 程序 单元 调用 ， 

包括 允许 限制 一 些 模块 的 特定 部 分 访问 ; 

添加 RECURSIVE (递归 ) 过 程 ; 

极 大 地 改善 了 参数 传递 机 制 ， 允 许 在 编译 时 检查 接口 ; 

允许 通用 过 程 的 用 户 自 定义 接口 ; 

允许 操作 符 重 载 ; 

引入 派生 /抽象 数据 类 型 ; 

添加 了 新 的 数据 类 型 定义 语法 ， 以 指定 数据 类 型 和 变量 的 其 它 属性 ; 

可 以 在 表达 式 和 赋值 语句 中 按 整 体操 作 数组 〈 或 数组 节 )， 由 此 极 大 地 简化 了 数学 

和 工程 计算 的 编程 。 这 些 特性 包括 整体 、 部 分 和 通 配 的 数组 赋值 (比如 用 WHERE 
语句 作 选 择 性 赋值 )， 数 组 常数 和 表达 式 ， 用 户 定 义 的 数组 函数 和 数组 构造 ; 

E ”动态 内 存 分 配 可 以 通过 ALLOCATABLE (可 分 配 ) 属性 和 ALLOCATE (分 配 空 
间 ) 和 DEALLOCATE (释放 空间 ) 语句 实现 ; 

E 45/A POINTER GRED’ 属性 、 指 针 赋 值 和 NULLIFY (指针 置 空 ) 语句 以 便于 创 

建 和 操作 动态 数据 结构 ; 

E ”引入 CASE 结构 以 文 持 多 分 文选 择 ; 

E 引入 EXIT 和 CYCLE 语句 以 用 于 按 顺序 地 “跳出 ”正常 的 DO 循环 重复 ; 
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添加 行内 注释 ; 


添加 新 的 和 增强 的 内 部 过 程 。 


Fortran 90 并 行 计算 的 底层 模型 是 数据 并 行 ， 其 实现 需要 通过 使 用 数据 数组 、 提 供 作用 
于 那些 并 行 的 数组 之 上 的 操作 和 内 部 函数 ， 由 编译 器 针对 各 个 特定 的 硬件 体系 结构 进行 优 


标识 符 长 度 扩展 至 最 长 31 个 字符 ， 


添加 用 户 可 控制 的 可 定义 的 数字 精度 ; 


化 。 从 定义 上 讲 ,“ 数 据 并 行 ” 和 所 谓 的 SIMD'( 单 指令 多 数据 ) 编程 方式 之 间 并 不 存在 太 
大 的 区 别 。 从 某 些 角度 来 看 ， 两 个 术语 几乎 意味 着 相同 的 事情 : 程序 员 写 下 单独 一 个 操作 ， 
比如 说 “十 ” 然后 编译 器 让 它 针 对 多 块 数据 以 便 件 所 允许 的 尽 可 能 并 行 的 方式 去 执行 。 


任何 一 种 非 SIMD 的 并 行 计算 方式 一 般 都 被 称 为 MIMD? (多 指令 多 数据 )。 一 个 具有 
MIMD 特性 的 并 行 编程 语言 将 允许 几 个 不 同 的 子 程序 〈 作 用 于 数据 的 不 同 部 分 ) 被 同时 调 
用 执行 。Fortran 90 几乎 没有 MIMD 结构 。 一 个 Fortran 90 编译 器 可 能 在 某 些 机 器 上 通过 
实现 一 些 Fortran 90 的 内 部 函数 (例如 pack 或 unpack) 来 执行 MIMD 代码 ,但 这 对 Fortran 
90 用 户 来 说 是 隐藏 的 。 一 些 Fortran 90 的 扩展 版 本 , 比如 HPF (High Performance Fortran) 


就 显 式 地 实现 了 MIMD 特性 。 


2.4 高 性 能 Fortran (HPF) 


超级 计算 系统 发 展 到 现在 已 经 形成 了 各 不 相同 的 系统 结构 ， 如 分 布 存储 MPP KETE 
储 多 处 理 机 系统 、 向 量 机 、 大 型 机 和 工作 站 等 。 要 充分 发 挥 这 些 不 同 结构 计算 机 系统 的 能 


就 要 求 程序 中 能 够 提供 比 传统 Fortran 和 
机 构 已 对 此 进行 了 广泛 研究 ， 其 中 以 美国 


Fortran 90 程序 更 多 的 信息 。 在 此 之 前 , 很 多 研究 
莱 斯 大 学 (Rice University) 的 Fortran DM 语言 及 


奥地利 维也纳 大 学 的 Vienna Fortranl4 语 言 影响 最 大 。1991 年 底 , 肯 肯尼迪 (Ken Kennedy) 
和 杰 弗 里 。 福 克 斯 (Geoffery Fox) 建议 成 立 一 个 非 官 方 的 组 织 ， 来 进一步 定义 这 种 语言 和 


进行 标准 化 。 于 是 , 一 个 由 工业 界 和 学 术 界 联合 组 成 的 机 构 


Osh 


高 性 能 Fortran 论坛 


成 立 。 经 过 两 年 多 的 努力 ， 终 于 在 1993 年 推出 了 一 种 能 够 满足 上 述 要 求 的 新 的 Fortran 语 


言 标准 


高 性 能 Fortran (High Performance Fortran, HPF). 


HPF! H ped Fortran 语言 〈 主 要 是 Fortran 90) 定义 一 组 语言 扩充 标准 ， 以 实 


Hs 


-支持 数据 并 行程 序 设计 ; 


- 能 在 非 一 致 存储 访问 开销 的 SIMD 或 MIMD 计算 机 上 获得 最 高 性 能 ; 


2.4.1 本 质 特征 


吧 序 代码 便于 在 不 同体 系 结构 的 计算 机 间 移 植 。 


HPF 并 行 模型 的 本 质 特征 是 单线 程 、 全 局 内 存 空间 和 松散 同步 ,虽然 HPF 最 初 以 NUMA 有 


为 目标 , 但 是 其 对 于 非 均一 访 存 机 器 上 数据 并 行 的 描述 信息 亦 可 指导 编译 器 生成 分 布 式 内 存 
机 器 上 的 代码 ， 当 编译 器 以 分 布 式 内 存 机 器 为 目标 机 时 ，HPF 将 被 编译 成 SPMD’ 程序。 


HPF 中 的 新 语法 结构 FORALL 和 固有 函数 被 用 于 支持 数据 并 行 ， 而 数据 分 布 等 制导 信 


g 


! Single Instruction stream, Multiple Data stream 

? Multiple Instruction stream, Multiple Data stream 
3 Massive Parallel Processing， 大 规模 并 行 处 理 
4 Non Uniform Memory Access， 非 均一 访 存 

5 Single Program, Multiple Data 


县 用 于 取得 NUMA 机 器 上 的 高 性 能 ， 外 部 函数 则 可 用 于 体系 结构 底层 相关 的 优化 。 
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2.4.2 HPF 的 数据 分 布 制导 


HPF 有 一 套 编译 制导 来 协助 程序 员 表述 数据 是 如 何 存储 的 。 这 些 制导 不 会 影响 计算 结 
果 ， 但 是 会 影响 到 执行 效率 。 它 们 的 引入 是 基于 以 下 两 个 重要 但 是 简单 的 观察 

- 如果 同一 个 操作 要 处 理 多 个 数据 对 象 ， 那 么 这 些 数据 对 象 在 同一 个 处 理 器 上 执行 效 

率 会 更 高 


- 如 果 操 作 在 不 同 的 处 理 器 上 同时 执行 ， 那 么 整体 的 执行 效率 会 更 高 。 


使 用 这 些 数据 存储 的 编译 制导 , 我 们 可 以 把 数据 合理 地 分 布 在 多 个 处 理 器 上 ， 而 编译 器 
则 会 进行 数据 并 行 的 优化 ， 从 而 在 运行 时 的 帮助 下 提高 程序 的 执行 效率 。 


在 HPF 中 的 主要 操作 对 象 是 数组 ， 编 译 制 导 可 以 把 数据 分 成 相同 大 小 的 块 ， 称 之 为 
BLOCK 分 布 ， 或 者 按照 轮 询 (round-robin) 的 方式 和 其 它 数 组 对 齐 ， 称 之 为 CYCLIC 分 
布 〈 或 者 使 用 更 为 复杂 的 方式 进行 数组 数据 的 划分 )。 然 后 这 些 数据 对 象 〈 数 组 ) 将 会 被 对 
齐 到 一 些 抽象 模板 上 , 这些 抽象 模板 则 会 被 分 布 在 抽象 节点 处 理 器 上 ,编译 器 会 把 这 些 抽象 
处 理 器 映射 到 物理 处 理 器 上 ， 从 而 完成 整个 数据 的 映射 过 程 。 如 图 1 所 示 : 


图 2 中 第 一 行 HPF 制导 信息 展示 了 指示 抽象 层 
编译 器 将 对 于 任意 KK, 将 A(K) 和 B(K-1) 映 射 

到 同一 个 虚拟 处 理 器 上 的 制导 信息 。 而 第 二 

行 HPF 制导 信息 则 要 求 将 数组 CI，1:100) 复 

制 到 存 有 DG，1:100) 中 任意 元 素 的 虚拟 处 理 物理 层 
器 ， 数 据 复制 操 作 和 数据 同一 性 保证 均 由 编 ree 
译 器 保证 。 图 1。 HPF 的 数据 映射 模型 示意 图 


REAL A(100), B(@:101), C(100,100), D(100,100) 
IHPF$ ALIGN A(K) WITH B(K-1) 
IHPF$ ALIGN C(I,J) WITH D(I,*) 


K2. HPF FORALL 结构 的 示例 


图 3 中 对 分 块 和 循环 散 列 两 种 不 同 的 DISTRIBUTE 方法 做 了 演示 ， 如 果 目 标 平台 为 四 
处 理 器 的 机 器 ， 则 在 第 一 个 处 理 器 上 将 保存 数组 的 以 下 部 分 : A(1:25,1:100)、 
B(1:100,1:97:4) 和 CcC(1:5)、C(21:25)、C(41:45)、C(61:65)、C(81:85)。 


REAL A(100,100),B(100,100),C(100) 


!HPF$ DISTRIBUTE A(BLOCK, *),B(*,CYCLIC),C(BLOCK(5) ) 


图 3，HPF 通过 DISTRIBUTE 制导 信息 控制 数据 分 布 
2.4.3 HPF 的 数据 并 行 结 构 


HPF 主要 并 行 结构 为 FORALL 结构 ， 用 于 计算 数组 操作 ， 而 WHERE 语句 可 用 来 控 
制 循 环 体 作 用 的 数组 范围 。 


相 比 Fortran 90 标准 中 的 数组 操作 , FORALL 语句 或 结构 允许 更 加 灵活 的 循环 下 标 选 
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择 ， 如 能 方便 地 支持 对 于 二 维 数组 对 角 线 上 的 元 素 进 行 赋值 。 但 是 需要 指出 的 是 FORALL 
结构 从 设计 思路 上 讲 ， 并 不 是 一 个 通用 的 并 行 结构 ， 它 不 能 很 好 地 支持 数据 流水 计算 或 者 
MIMD 计算 。 


第 11 卷 第 


和 


FORALL (I=2:N) 
A(I) = A(I-1) + A(I) + A(I+1) 


B(I) = B(I-2) + B(I) + B(I+2) 
END FORALL 


Kl4. HPF FORALL 结构 的 示例 


另 一 点 需要 注意 的 是 FORALL 结构 中 的 数据 依赖 ,一 个 有 多 条 子 句 的 FORALL 结构 等 
价 于 多 个 FORALL 语句 的 序列 ; 而 每 个 FORALL 语句 执行 时 ， 是 在 计算 对 于 所 有 下 标的 
赋值 表达 式 的 右 值 之 后 , 才 进 行 对 左 值 的 赋值 的 。 如 图 4 中 的 FORALL 结构 的 计算 顺序 为 
先 对 任意 I 求 A(I-1) + A(I) + A(I+1)， 再 将 值 赋 给 A 中 的 相应 的 元 素 ， 再 对 任意 的 
I 求 B(I-2) + B(I) + B(I+2)， 最 后 对 B 中 的 相应 元 素 赋值 。 

在 HPF 中 由 INDEPENDENT 制导 标记 不 依赖 可 并 行 的 结构 , 可 用 于 Fortran 的 DO 循 
环 或 者 HPF 的 FORALL 结构 。 为 了 保证 确定 性 的 结果 ，INDEPENDENT 标记 的 DO 循环 
中 不 可 含有 对 于 标量 的 赋值 ， 除 非 用 NEW 标记 为 不 跨 循 环 下 标 使 用 的 临时 变量 ， 如 图 5 所 
示 。 


IHPF$ INDEPENDENT, NEW(TEMP) 
DO I=1, 100 
TEMP=COS(A(I)}) 


D(I)=TEMP**2+B(I) 


ENDDO 


15. HPF 通过 INDEPENDENT 指定 并 行 循环 .NEW 指定 临时 变量 的 示例 
2.4.4 HPF 的 其 他 特性 

HPF 还 提供 了 一 些 内 置 函 数 供 程序 员 使 用 , 例如 MAXLOC、MINLOC 用 来 求 最 大 最 小 值 
的 索引 等 。 
在 语言 特征 修改 方面 , Fortran 77 的 有 序 存储 和 现代 体系 结构 中 的 局 部 性 要 求 产 生 了 冲 
突 ， 因 此 HPF 取消 了 对 于 序列 存储 的 要 求 ， 除 非 通过 制导 信息 制定 ， 编 译 器 可 对 存储 分 布 
进行 修改 ， 同 时 编译 器 可 以 利用 制导 信息 优化 数据 的 组 织 分 布 。 

HPF 是 一 种 不 依赖 于 特定 机 器 的 高 级 语言 ， 为 了 有 效 地 支持 如 脉动 通信 等 细 粒 度 优 化 ， 
还 引入 了 外 部 函数 这 样 一 个 接口 。 在 HPF 2.0 中 还 增加 了 HPF VO 扩展 ， 但 是 厂商 仍 可 以 定 
义 自己 的 读 写 (VO) 扩展 。 


2.4.5 HPF 的 实现 情况 


随 着 HPF1.0 到 1.1，2.0 的 提出 ,广泛 应 用 支持 HPF 的 编译 器 越 来 越 多 ， 而 更 多 的 研究 
机 构 和 厂商 也 纷纷 投入 其 中 ， 以 下 列举 一 些 支持 HPF 的 编译 器 : 


$ 
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Absoft 公司 的 Absoft Pro Fortran; 

Digital 公司 的 DIGITAL Fortran 〈 不 再 提供 使 用 ); 

Parsec 技术 公司 的 Fortran 90〈 不 再 提供 使 用 ); 

康 柏 (Compaq) 公司 的 Fortran Power Station 4.0 〈 不 再 提供 使 用 ); 
NA Software Ltd 公司 的 HPF Plus; 

中 国 科 学 院 的 limaoshan 〈 不 再 提供 使 用 )); 

Portland Group 公司 的 PGHPF; 

Crescent Bay Software 公司 〈 以 前 的 Pacific-Sierra 研究 院 ) 的 VAST-HPF; 
Applied Parallel 研究 院 的 xHPF 〈 不 再 提供 使 用 ); 

IBM 公司 的 xlhpf; 

GMD-SCAI 公司 的 Adaptor; 

Fortran 95 编译 器 G95; 

南安 普 顿 大 学 和 VCPC (Vienna 并 行 计 算 欧 洲 中 心 ) 的 SHPF 等 。 


很 多 重要 的 应 用 也 从 HPF 中 获得 收益 ， 主 要 集中 在 物理 、 数 学 等 计算 密集 、 数 据 并 行 
度 较 大 的 应 用 ， 如 : 


三 维 磁 流体 动力 学 仿真 ; 
生物 膜 仿 真 ; 

加 速 器 的 计算 物理 学 仿真 (Computational Accelerator Physics); 

莱 斯 大 学 的 HPFt 项 目 - 泛 型 耐 撞 性 仿真 内 核 (Generic Crash Kernels); 
癌变 过 程 仿真 模型 的 马尔 科 夫 蒙特 卡 洛 方法 (MCMC for Carcinogenesis Models); 
预测 石油 净 储 量 的 神经 网 络 (Neural Networks for Hydrocarbon Net Pay Prediction); 
普林斯顿 海洋 模型 (Princeton Ocean Model) 等 。 


2.4.6 HPF 的 应 用 效果 


戴尔 : 夏 尔 斯 (Dale Shries) 等 人 0 用 非 结 构 化 有 限 元 模拟 器 (Unstructured Finite Element 
Simulations) 应 用 把 HPF 和 MPI 的 效率 进行 了 对 比 。 实 验 使 用 Cray T3E 超级 计算 机 ， 编 译 
器 采用 PGHPF 3.2. T3E 是 一 个 平行 分 布 式 内 存 的 平台 , 采用 了 紧 耦 合 的 3D 双向 环 的 配置 ， 
拥有 1088 个 处 理 单元 ， 每 个 处 理 单 元 拥有 500MB 内 存 。 实 验 结果 如 图 6 所 示 。 
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图 6，HPF 和 MPI 的 执行 时 间 对 比 
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而 


6(a)! 


在 有 2 个 处 理 器 的 情况 下 ，MPI 程序 比 HPF 程序 快 4.5 3; 在 有 32 个 处 理 


f 


器 的 | 


实验 结论 是 ，HPF 和 MPI 对 于 非 结 构 化 有 限 元 这 类 应 用 都 具有 较 好 的 扩展 性 


青 况 下 ， 快 4.3 倍 。 在 图 6(b) 中 ， 则 在 有 2 个 处 理 器 的 情况 下 ，MPI 程序 比 HPF 快 3.8 
fi; 在 有 128 个 处 理 器 的 情况 下 ， 快 2.7 倍 。 


上 且 这 两 


种 并 行 编程 方式 都 比较 适用 于 大 多 数 并 行 系统 例如 SUN, SGI, IBM 等 。 而 HPF 是 一 个 较 
高 层次 的 并 行 编程 抽象 ， 对 于 HPF 来 说 获得 这 样 的 执行 效率 已 经 是 非常 不 容易 的 。 虽 然 比 
起 MPI 应 用 的 执行 效率 仍 有 差距 , 但 是 HPF 的 编程 比 MPI 大 大 简化 , 这 也 大 大 降低 了 并 行 


程序 设计 的 门槛 ， 对 并 行 系统 的 推广 起 到 了 很 大 作用 。 


| 


WAZ (Hitoshi Murai) 等 人 09， 在 8 处 理 器 的 机 器 上 ， 使 用 HPF/SX V2 编译 器 ， 在 
HPFBench 20) APR Benchmarks’ ”, GENESIS Benchmarks2 和 NAS Parallel Benchmarks”?! E 
评估 了 HPF 的 应 用 效果 。 图 7 所 示 为 在 HPFBench 上 的 结果 ， 基 准 是 F90 不 加 并 行 扩 展 的 
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(d) (e) (f) 
各 图 纵 坐 标 为 相对 速度 (以 HPF/1 的 速度 为 基准 ) ， 横 坐标 为 执行 方式 


图 7， 在 HPFBench 上 评估 HPF 的 结果 09] 
图 中 (a)~(c) 是 线性 代数 库 的 评估 结果 ; (d)~( 人 是 应 用 核 的 评估 结果 。 


从 图 7 的 (a)~ 人 (可 以 看 到 总 体 结果 为 : 在 1 个 处 理 器 环境 下 使 用 HPF 扩展 时 , 性 能 略微 
有 一 些 下 降 或 者 保持 不 变 ， 在 多 个 处 理 器 环境 下 使 用 HPF 扩展 时 ， 可 以 得 到 较 好 的 执行 效 
率 和 扩展 性 。 
2.5 Fortran 95 

Fortran 95I90219 仅 是 一 个 小 改版 , 大 部 分 改动 是 修正 了 Fortran 90 标准 中 一 些 较为 显 
著 的 问题 。 虽 然 如 此 ，Fortran 95 仍 有 不 少 的 扩充 ， 尤 其 是 在 HPF 的 规格 方面 : 

E S) FORALL PRE WHERE 结构 以 帮助 向 量化 ; 

E 引入 用 户 定义 的 PURE fil ELEMENTAL 过 程 。 

Fortran 95 的 一 个 重要 补充 是 ISO 技术 报告 TR-15581: 增强 的 数据 类 型 工具 ， 非 正式 
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名 称 是 可 分 配 的 TR。 这 一 标准 定义 了 ALLOCATABLE (TJA) 数组 的 增强 的 应 用 ， 其 
出 现 早 于 完全 兼容 Fortran 2003 的 Fortran 编译 器 , 使 用 户 可 将 ALLOCATABLE 数组 用 于 
过 程 伪 参数 列表 及 函数 返回 值 中 作为 派生 的 类 型 组 件 。(ALLOCATIABLE 数组 比 基 于 
POINTER (指针 ) 的 数组 更 受 欢迎 ， 因 为 ALLOCATABLE 数组 是 由 Fortran 95 保证 的 ， 
当 它 们 退出 范围 时 会 被 自动 释放 掉 ， 避 免 了 内 存 溢出 的 可 能 性 。 另 外 ， 别 名 也 不 再 是 优化 数 
组 引用 时 的 一 个 问题 ， 可 以 使 编译 器 生成 的 代码 比 用 指针 时 生成 的 代码 运行 得 更 快 。) 


Fortran 95 的 第 二 个 补充 是 ISO 技术 报告 TR-15580: 浮 点 异常 处 理 , 非 正式 名 称 是 IEEE 
TR。 这 一 标准 定义 了 对 IEEE 浮 点 算术 和 浮 点 异常 处 理 的 支持 。 


2.6 Fortran 2003 


Fortran 2003[ 9 是 Fortran 发 展 中 的 一 次 巨大 改变 ， 引 入 了 当时 流行 的 面向 对 象 的 
编程 方法 。 主 要 的 改进 体现 在 : 


m ”增强 了 衍生 类 型 : 带 参 数 的 衍生 类 型 ， 改 善 了 控制 的 可 操作 性 ， 改 善 了 结构 化 的 创 
建 和 释放 ; 

加 支持 面向 对 象 编程 : 扩展 类 型 和 继承 、 多 态 、 动 态 类 型 分 配 ， 以 及 类 型 绑 定 过 程 ; 

m 改善 了 数据 操作 : 支持 可 分 配 的 组 件 〈 编 入 IEEE TR 15581)， 延 期 的 类 型 参数 ， 
VOLATILE ( 易 变 ) 属性 〈 在 并 发 系统 中 ， 程 序 员 通过 添加 该 属性 ， 可 以 知道 共 
享 数 据 的 取 值 是 否 已 被 正确 刷新 )， 支 持 在 数组 构造 和 分 配 语句 中 显 式 定 义 类 型 ， 
文 持 增强 的 指针 、 扩 展 的 初始 化 表达 式 、 增 强 的 内 部 过 程 ; 

m ”增强 的 输入 / 输出 : 支持 异步 传输 、 流 访问 ， 人 允许 用 户 指 定 衡 生 类 型 的 传输 操作 ， 
用 户 在 格式 转换 时 可 以 指定 舍 入 控制 , 为 连接 前 单元 指定 常数 , 使 用 FLUSH 语句 ， 
定义 了 关键 字 的 规范 和 访问 错误 信息 ; 


国文 持 过 程 指针 ; 
图 ” 文 持 IEEE 浮 点 算法 和 浮 点 异常 处 理 ( 编 入 IEEE TR 15580); 
图 ”支持 与 C 语言 的 交互 性 ; 
国文 持 国际 化 : 访问 ISO 106464 字 节 字符 和 在 格式 化 的 数字 输入 / 输出 中 选择 数字 
或 者 逗号 ; 
m ”提供 与 宿主 操作 系统 增强 的 集成 : 可 以 访问 命令 行 参数 、 环 境 变量 和 处 理 器 错误 信 
2.7 Fortran 2008 


Fortran 2003 之 后 的 版 本 是 Fortran 2008ts1”5326]， 与 Fortran 95 一 样 , 只 是 一 个 小 改版 ， 
略微 更 正 了 Fortran 2003 的 一 些 问题 ， 并 且 合 并 了 TR-19767 的 语言 功能 : 


加 Co-array Fortran - 并 行 处 理 模 式 ; 
m BIT 数据 类 型 。 


2007 年 8 月 ， 数 据 类 型 BIT 被 删除 了 。2008 年 2 月 ，Co-array Fortran 的 计划 已 缩小 ， 
MA Parallel IO， 而 研发 团队 也 被 裁员 了 。 


2.8 Co-array Fortran 

Co-Array Fortran (简称 “CAF ”是 一 组 对 Fortran 95 的 SPMD 的 并 行 扩展 。 CAF 
的 主要 并 行 对 象 也 是 数组 ， 且 仅仅 对 原来 的 Fortran 95 语法 进行 了 很 简单 的 扩展 ， 所 以 程 
序 员 学 习 的 负担 很 少 。 
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使 用 CAF 编写 的 Fortran 程序 段 就 好 像 是 被 复制 了 多 份 ， 每 份 都 异步 地 执行 。 每 份 程 
序 都 有 自己 的 数据 对 象 ， 称 为 image (Hi). CAF 主要 是 扩展 了 数组 的 索引 下 表 ，CAF 使 
用 方 括号 进行 跨 image 的 访问 。 


CAF 是 一 个 SPMD 的 并 行 编 程 模 型 ， 基 于 Fortran 95 语言 。 和 MPI 类 似 的 是 CAF 程 
序 需 要 显 式 地 管理 数据 和 计算 的 分 布 ， 但 是 CAF 是 一 个 共享 内 存 的 编程 模型 ， 且 不 需要 显 
式 地 进行 数据 通信 管理 ， 只 需要 使 用 对 Fortran 95 数组 下 标的 扩展 进行 其 它 处 理 器 数据 的 
访问 ， 数 据 的 通信 和 同步 则 是 交 给 编译 器 进行 处 理 和 优化 。CAEF 现在 主要 在 科学 、 工 程 计 
算 中 应 用 ， 在 超级 计算 机 中 应 用 较 多 ， 主 要 在 Cray Fortran 90 编译 器 3.1 版 本 之 后 实现 。 
此 外 莱 斯 大 学 的 Los Alamos Computer Science Institute (LACS) 实验 室 B 也 实现 了 CAF. 


2.8.1 Co-array Fortran 的 主要 特点 


cag 


GÆ CAF 的 计算 分 布 (work distribution), 一 个 程序 被 复制 多 份 , 每 份 有 自己 的 一 组 数 
据 对 象 ， 每 一 份 都 成 为 镜像 (image)， 且 多 个 镜像 之 间 是 异步 执行 的 ， 所 以 每 个 镜像 的 执行 
路 径 都 有 所 不 同 。 程序 员 使 用 镜像 索引 (image index) 和 显 式 的 同步 操作 来 决定 某 个 镜像 实 
— 际 的 路 径 。 编 译 器 负责 对 CAF 进行 优化 。 


Sh 


其 次 ， 考 虑 数据 分 布 ，CAF 扩展 了 Fortran 语言 的 语法 ， 人 允许 程序 员 使 用 数据 下 标 式 
的 语法 来 在 多 个 处 理 器 上 分 布 以 及 存 取 数据 。 例 如 : 


REAL, DIMENSION (N)[*] :: X,Y 
X(:) = Y(:)[Q] 


上 面 的 代码 中 ， 声 明 的 每 个 镜像 有 2 个 实数 数组 X 和 Y， 每 个 数组 大 小 都 是 N， 且 如 
R Q 在 每 一 个 镜像 上 都 是 相同 的 值 ， 那 么 第 二 名 话 的 意思 是 每 个 镜像 上 的 X 数组 都 找 贝 镜 
像 Q 上 立 数组 的 值 。 在 小 括号 里 的 数组 下 标 表 示 的 是 在 镜像 内 部 ， 数 组 元 素 的 索引 。 在 方 
括号 里 的 数组 下 标 则 表示 的 是 数组 所 在 的 镜像 的 索引 。 使 用 数组 下 标的 扩展 语法 使 程序 员 更 
容易 编程 存 取 其 他 镜像 上 的 数据 。 


由 于 一 个 程序 中 ， 许 多 对 数据 对 象 的 操作 在 本 地 进行 才 是 最 高 效 的 ，CAF 的 语法 应 该 
在 一 个 很 小 的 比较 单独 的 部 分 出 现 。 和 否则 ， 使 用 CAF 的 代码 越 多 将 标志 镜像 之 间 需 要 的 通 
信 越 多 。 这 里 给 出 一 个 CAF 的 简单 的 例子 : 


01 


n Ém 


1. X = Y[PE] ! 从 Y[PE] 取 数 
2. Y[PE] = X ! 向 Y[PE] 赋 值 
3. Y[:] = X ! 广播 X 
4. Y[LIST] = X ! 广播 X BA PE' 在 数组 LIST 中 的 子 集 
5. Z(:) = Y[:] ! 收集 全 部 了 值 
! 


6. S = MINVAL(Y[:]) 求 所 有 Y 的 最 小 值 

如 上 例 中 ,第 1 行 把 X 的 值 赋 成 第 PE 个 镜像 中 Y 的 值 ; 第 2 行为 把 X 的 值 赋 给 第 PE 
个 镜像 中 Y;， 第 3 行将 当前 镜像 中 X 的 值 赋 给 所 有 镜像 中 的 Y; 第 4 行 把 当前 镜像 中 X 的 
值 赋 给 LIST 所 指定 的 那 一 组 镜像 中 的 Y; 第 5 行 把 所 有 镜像 中 Y 立 的 值 赋 给 当前 镜像 中 Z 的 
fA; 第 6 行 把 所 有 镜像 中 Y 立 的 值 取得 ， 并 求 最 小 值 ， 赋 给 当前 镜像 中 S。 

在 此 之 前 ， 输 入 输出 对 于 SPMD 的 编程 模型 来 说 是 一 个 比较 麻烦 的 问题 ， 例 如 MPI。 
因为 标准 的 Fortran 输入 输出 是 假定 有 一 个 专门 的 进程 来 读 取 文 件 ， 这 个 限制 往往 会 被 违 
背 ， 尤 其 是 当 每 个 镜像 的 输入 输出 都 要 独立 进行 的 时 候 。 而 CAF 使 用 最 小 的 Fortran 95 IO 
的 扩展 避免 了 之 前 程序 模型 所 面临 的 一 些 限制 ,从 而 可 以 显 式 地 提供 并 行 读 写 ， 且 可 以 基于 
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进程 和 线程 实现 。 
图 8 是 一 个 求 最 大 值 的 CAF 程序 完整 实例 : 
Subroutine greatest(a, great) ! 找 出 a(:) [*] 的 最 大 值 


real, intent(in)::a(:)[*] 


real, intent(out)::great[*] 


real :: work (num_images()) ! 局 部 工作 数组 


great = maxval (a(:)) 


call sync_all ! 等 待 所 有 镜像 到 达 


if(this_image(great )==1)then 
work(:)=great[:] ! 获得 局 部 最 大 值 
great[:]=maxval (work) ! 广播 全 局 最 大 值 

end if 

call sync_all 


End subroutine greatest 


图 8， 使 用 CAF 扩展 求 最 大 值 


Subroutine greatest (first,]last,a,great)! 求 a(: )[first:last] 的 最 大 值 
integer, intent(in)::first, last 
real, intent(in)::a (:)[*] 


real, intent (out)::great(:)[*] ! 将 结果 放 入 great [first:last] 


real, allocatable: :work(:) ! 局 部 工作 数组 


integer: :i, this 
this=this_image(great) 


if (this.GE. fitst.and. This .LE.last) then 


allocate (work(first: last) ) 


great=maxval(a) 
call sync_team((/(i,i=first,last)/)) 
if (this. EQ.first) then 


work=great[first:last] ! 获得 局 部 最 大 值 
great[first:last]=maxval(work) ! 广播 全 局 最 大 值 
deallocate (work) 


end if 
call sync_team((/(i,i=first,last)/)) 
end if 
end subroutine greatest 


Ko. EH CAF 扩展 求 最 大 值 ， 使 用 allocatable array 
如 图 8 中 的 代码 所 示 : 一 开始 ， 所 有 镜像 求 得 本 镜像 内 部 的 数组 a 的 局 部 最 大 值 。 然 
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后 同步 , 等 等 所 有 的 镜像 都 完成 最 大 值 的 求解 , 然后 第 一 个 镜像 去 收集 所 有 镜像 中 的 局 部 最 
大 值 ， 并 且 求 得 全 局 最 大 值 ， 然 后 分 发 给 所 有 镜像 。 第 6 行 中 的 call sync_all 是 CAF 


提供 的 方法 ， 用 来 进行 镜像 间 的 同步 。 

这 里 有 一 个 问题 ， 如 代码 的 第 4 行 , 每 个 镜像 都 申请 了 一 个 名 为 work 的 局 部 数组 来 保 
存 收集 来 的 局 部 最 小 值 。 事实 上 ， 只 有 第 一 个 镜像 才 用 得 到 work 数组 。 这 里 我 们 可 以 使 用 
CAF 提供 的 allocatable array 来 实现 只 在 image 1 中 申请 work 数组 。 图 9 给 出 改进 版 的 
代码 。 如 图 9 中 的 灰色 填充 框 所 示 ， 先 声明 work 数组 为 allocatable， 然 后 在 image 1 要 
执行 的 代码 内 部 为 其 分 配 并 释放 空间 。 
2.8.2 Co-array 的 实现 情况 

很 久 以 来 在 许多 Fortran 编译 器 以 及 相应 的 系统 中 就 实现 了 Co-array 扩展 ， 例 如 Cray 
Fortran | 自从 3.1 版 本 以 来 就 包含 了 Co-array 的 支持 。 经 过 不 断 的 发 展 和 完善 ，Co-array 
扩展 已 经 被 纳入 了 Fortran 2008 的 标准 之 中 ， 且 在 越 来 越 多 的 系统 中 得 到 实现 和 支持 。 第 

个 开源 的 Co-array 实现 ， 是 在 G95 中 把 Co-array 作为 Fortran 2008 的 标准 在 编译 器 和 相 

关 的 Linux 运行 时 系统 中 实现 。 

此 外 ， 一 些 研究 机 构 和 公司 也 在 积极 地 实现 CAF2.0 标准 的 编译 器 以 及 运行 时 库 。 例 如 
莱 斯 大 学 截至 到 2011 仍 在 开发 支持 CAF2.0 的 产品 级 的 开源 编译 器 , 其 CAF2.0 的 运行 时 库 
采用 加 州 大 学 伯克利 分 校 (UC Berkeley) 的 GASNetD3 作 为 基础 通讯 库 。GASNet 是 一 个 和 
语言 无 关 的 ， 低 层 的 网 络 通讯 层 ， 用 来 提供 独立 于 网 络 的 ， 高 效 的 通讯 原 语 ， 可 以 用 来 支持 
一 些 常 见 的 全 局 地 址 空间 的 SPMD 语言 ， 例 如 UPC、Titanium、Co-Array Fortran 等 。 
2.8.3 Co-array 的 应 用 效果 
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图 10. MPI, CAF 和 UPC Æ NAS MG 上 的 性 能 比较 图 
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Wid + HEALY (Cristian Coarfa) 等 人 B4 于 2005 对 于 共享 地 址 空间 的 SPMD 语言 进 


行 了 评估 ， 其 中 包含 CAF。 实 验 使 用 NAS Parallel Benchmarks (NPB) MG, CG, SP 和 BT。 比 
较 了 CAF, UPC 和 Fortran + MPI 三 种 实现 的 效果 。 实 验 平台 有 4 种 : 


92 节点 HP zx6000 的 工作 站 + Myrinet 2000 


Lemieux Alpha cluster, Pittsburgh Supercomputing Center, 


1 

2. 

3. SGI Altix 3000 
4. SGI Origin 2000 


图 10 显示 了 MPI, CAF 和 UPC 42 NAS MG 上 的 性 能 比较 ,对 比 了 MPI Fortran 版 本 、 
CAF、UPC 以 及 其 使 用 不 同 变种 版 本 时 的 性 能 , 其 中 BUPC 代表 使 用 BUPC 编译 , CAF-barrier 
BAH FAA (barrier) 方式 进行 同步 。BUPC-restrict 指使 用 restrict 关键 字 以 便 别 名 优化 ， 
BUPC-p2p 指使 用 点 对 点 (point-to-point) 方式 进行 同步 ，BUPC-strided 使 用 UPC 扩展 对 跨 


块 数据 (strided data) 进行 成 批 传输 (bulk transfers ) 。 


图 11 显示 了 MPI、CAF 和 UPC 在 NAS CG 上 的 性 能 比较 : 
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(c)CG class B on Altix 3000 
图 11. MPI, CAF, 和 UPC 在 NAS CG 上 的 性 能 比较 图 
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(d)CG class B on origin 2000 


由 图 10 和 图 11, 可 以 看 出 虽然 性 能 比较 的 结果 由 于 程序 的 差别 而 有 所 不 同 , 但 是 CAF 


[= 


的 性 能 和 传统 的 MPI 程序 以 及 新 兴 的 UPC 语言 都 显示 出 了 不 错 的 效果 。 作 为 一 门 共享 地 址 
空间 的 并 行 语言 扩展 ，CAF 使 用 最 容易 接受 的 ， 容 易 编写 的 方式 对 Fortran 语言 的 数据 对 


象 下 标 进 行 扩展 ， 且 达到 了 很 好 的 性 能 效果 ， 并 且 有 较 好 的 扩 
CAF 可 以 被 加 入 Fortran 2008 标准 的 一 个 重要 原因 。 
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2.9 其 他 


2.9.1 下 -- 


作为 Co-Array Fortran 的 前 身 ,F--65 是 基于 Fortran 77/90 语言 的 并 行 扩 展 , 同样 使 用 
SPMD 编程 模型 ， 且 其 执行 模型 〈 计 算 分 布 ) 和 数据 模型 (数据 分 布 ) 和 Co-Array 完全 相 
同 ， 只 是 语法 略 有 不 同 ， 部 分 原因 是 由 于 Fortran 90 和 95 语法 的 区 别 。 


2.9.2 Fortran D 


Fortran DI 是 一 组 对 Fortran 77 语言 的 高 效 的 并 行 扩展 ， 可 以 使 用 在 分 布 式 内 存 
的 机 器 上 指定 数据 划分 , 然后 Fortran D 编译 器 自动 创建 高 效 的 并 行 代码 ， 基 于 数据 划分 进 
行 计算 划分 。 编 译 器 会 产生 显 式 的 通信 《以 消息 通信 为 基础 )， 并 且 优 化 这 些 通信 来 生成 高 
效 的 并 行 代 码 ， 最 终 数 据 会 按照 指定 的 数据 划分 分 布 在 各 个 节点 上 ,SPMD 的 可 执行 程序 则 
会 分 布 到 所 有 节点 上 并 行 执行 。 


Fortran D 尽管 是 一 个 很 老 的 语言 扩展 和 编译 系统 ， 且 现在 也 逐渐 不 再 使 用 了 ， 但 是 它 
一 的 发 展 对 很 多 在 分 布 式 内存 并 行 机 上 进行 的 并 行程 序 研究 做 出 了 巨大 的 贡献 。 例 如 Fortran 
之 D 对 HPF 的 发 展 起 过 很 重要 的 影响 ，HPF 采用 了 几乎 同样 的 方式 把 数据 划分 的 任务 交 给 程 
序 员 来 做 ， 而 且 HPF 的 后 端 也 采用 很 多 相同 的 优化 技术 。 这 也 是 HPF 和 Fortran D 扩展 如 
此 相似 的 原因 。 


2.9.3 MPF 


MPFB8 编 程 语言 是 由 阿 。 雅 . 卡 里 诺 夫 (A.Ya. Kalinov) 等 提出 的 对 Fortran 90 的 一 个 
扩展 , 是 为 分 布 式 并 行 系统 而 设计 的 .MPF 的 设计 经 验 来 自 于 MPC 编程 语言 的 发 展 和 应 用 。 
MPF 是 一 个 显 式 并 行 编程 方法 ， 试 图 寻找 效率 和 易 编程 性 之 间 的 权衡 。 


在 以 往 Fortran 语言 的 并 行 扩展 中 ，HPF 容易 编程 ， 程 序 员 的 开发 效率 较 高 ， 但 是 程序 
的 编译 优化 较为 困难 ， 导 致 其 性 能 很 大 程度 依赖 编译 器 的 实现 ， 并 且 比 MPI + Fortran 编写 
的 程序 的 效率 低 。 所 以 MPF 的 目的 就 是 提供 较 好 的 编程 性 ， 且 在 效率 上 较 HPF 有 所 提高 。 

MPF 的 特性 不 再 详细 介绍 ， 和 MPI 程序 在 少量 程序 上 的 对 比 结果 ，MPI 程序 的 性 能 


= 概 比 MPF 程序 高 10% 左 右 。 而 MPF 程序 的 表达 能 力 较 好 ， 编 程 容易 。 但 MPF 并 没有 广泛 
© 使 用 和 被 接受 ， 仅 仅 处 在 研究 实验 阶段 。 


01 
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2.9.4 IPFortran 
IPFortran 是 一 门 利用 多 进程 实现 数据 并 行 的 编程 语言 , 是 Fortran 语言 的 一 个 扩展 。 


实现 多 进程 间 数 据 并 行 通信 时 ，send (Rix) M receive HW) 被 隐 式 地 包含 在 
级 运算 符 〈( 插 入 运算 符 ) 以 及 reduce 函数 中 。 由 于 和 系统 相关 的 消息 通信 代码 对 程序 员 
透明 ， 由 编译 器 和 运行 时 来 接管 ， 代 码 串 行 编 写 ， 所 以 代码 的 开发 效率 提高 。 而 且 消 息 通 信 
的 逻辑 是 由 编译 器 来 自动 生成 ， 从 而 减少 了 开发 中 的 错误 。 

IPFortran 编程 有 一 个 重要 的 前 提 是 ， 每 个 处 理 器 知道 所 有 处 理 器 上 的 变量 的 名 字 。 为 
了 达到 这 个 前 提 ， 我们 需要 所 有 处 理 器 运行 相同 的 IPFortran 代码 ， 编 程 模型 是 SPMD 。 程 
序 员 使 用 数据 的 局 部 视图 (local view) 完成 数据 的 分 发 和 读 取 。 
程序 员 通 过 局 部 化 (local) 方法 使 用 显 式 的 逻辑 为 每 个 处 理 器 写 代 码 ， 且 使 用 相应 的 控 
制 结构 来 进行 数据 的 分 解 和 传播 。 使 用 这 种 方法 程序 员 可 以 高 效 地 写 出 IPFortran 代码 ， 且 


imi 


H 
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很 多 工业 级 的 代码 都 可 以 很 快 地 移植 到 IPFortran 上 来 。 
2.9.5 Fortran M 


Fortran MLN 是 在 Fortran 77 的 基础 上 进行 的 一 组 扩展 ， 它 支持 面向 模块 化 的 消息 传 
递 的 程序 设计 方法 。Fortran M 具有 以 下 特点 : 


加 ”模块 化 程序 使 用 显 式 定 义 的 通信 通道 进行 通信 。Fortran M 程序 就 是 由 这 些 通信 
通道 将 模块 连接 在 一 起 而 形成 的 。 每 个 模块 称 为 一 个 进程 〈process)， 每 个 进程 可 
以 包含 普通 数据 、 子 进程 ， 以 及 内 部 通信 。 
国安 全 在 通道 上 的 操作 经 过 严格 的 限制 和 规定 ， 可 以 避免 二 义 性 的 执行 和 不 正确 的 
结果 。 通 信 的 通道 是 有 类 型 的 ， 所 以 编译 器 可 以 检查 其 使 用 是 否 正确 。 
E ”不 依赖 于 体系 结构 进程 映射 时 ， 可 以 先 映射 到 一 个 和 实际 机 器 不 同 的 虚拟 计算 机 
配置 上 。 映 射 可 以 通过 注释 进行 ， 结 果 只 会 影响 程序 的 性 能 ， 不 会 影响 正确 性 。 
加 ”高 效 Fortran M 可 以 在 单 处 理 器 、 共 享 内 存 的 系统 、 非 共享 内 存 分 布 式 的 系统 以 
及 网 络 工 作 站 上 高 效 地 实现 。 由 于 通信 被 包含 在 代码 之 中 , 编译 器 也 可 以 在 优化 计 
算 时 优化 通信 。 
2.9.6 OpenMP Fortran 
OpenMPI 人 4 并 非 专属 Fortran 的 扩展 ， 而 是 一 套 工 业 标准 的 制导 信息 、 库 函数 和 环境 变 
量 ， 其 目标 在 于 提供 一 套 得 到 编译 器 广泛 支持 的 共享 内 存 机 器 上 的 并 行程 序 开发 方法 。 与 
HPF 类 似 ，OpenMP 通过 制导 信息 指定 并 行 域 ， 并 行 域 中 的 代码 将 在 线程 上 执行 。OpenMP 
WIFE 
OpenMP 得 到 了 几乎 所 有 主流 编译 器 的 文 持 , 已 经 成 为 共享 内 存 环境 中 并 行 编程 的 事实 
标准 ， 并 因 其 突出 的 可 移植 性 而 逐渐 取代 了 很 多 厂商 的 私有 扩展 。 
3 三 家 私有 的 并 行 扩展 
3.1 VPP Fortran 
VPP Fortran “9 最初 是 为 VPP 系列 超级 计算 机 开发 的 (1991)。 一 方面 ， 由 于 使 用 全 
局 名 字 空 间 ，VPP Fortran 编程 比 MPI 容易 得 多 ,数据 可 以 分 解 和 分 布 在 多 个 处 理 器 上 , 通 
过 运行 时 来 保证 数据 的 一 致 性 和 同步 等 问题 。 男 一 方面 ，VPP Fortran 提供 较为 低层 的 方法 
来 支持 纯 数 据 并 行 ， 从 而 得 到 更 好 的 性 能 。 这 些 方法 可 以 显 式 地 存 取 每 个 处 理 器 上 的 数据 ， 
实现 广播 、 多 播 、 栅栏 、 关 键 区 、 同 步 等 等 操作 。 这 些 低层 的 特性 不 是 任何 时 候 都 是 必要 的 ， 
但 是 他 们 可 以 用 来 提升 关键 程序 的 性 能 。 
3.1.1 数据 分 布 


A 


VPP Fortran 编程 模型 描述 的 目标 硬 
件 如 图 12 所 示 : 每 个 处 理 器 有 自己 的 本 
地 存储 器 ， 本 地 存储 器 总 是 最 快 的 存储 
器 。 全 局 存储 器 物理 上 分 布 在 每 个 处 理 器 
上 ， 被 所 有 的 处 理 器 共享 使 用 。 在 VPP 
Fortran 编程 模型 中 ， 每 个 变量 要 么 是 局 
部 (Local)， 要 么 是 全 局 (Global) 属性 ， 
取决 于 其 所 在 的 位 置 。 


全 局 存储 器 
局 部 存储 器 | | 局 部 存储 器 | ..。 | 局 部 存储 器 


图 12. VPP Fortran 编程 模型 
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3.1.2 执行 过 程 
以 下 使 用 如 图 13 所 示 的 一 段 代 码 来 说 明 VPP Fortran 程序 的 执行 过 程 : 


包含 在 PARALLEL REGION (并 行 区 域 ) 之 中 的 代码 段 将 会 被 并 行 执行 。PARALLEL 
REGION 将 会 在 每 个 处 理 器 上 使 用 进程 分 又 函 数 (fork) 来 创建 进程 ， 并 在 END 
PARALLEL 的 时 候 调 用 处 理 器 
join， 这 种 行为 和 OpenMP : 4 5 :3i4i5i6i7i8: PROCESSOR P(8) 
的 行为 有 些 类 似 。 但 是 VPP oP oe ee A 
Fortran 是 使 用 在 分 布 式 内 存 
的 并 行 系统 上 ， 控 制 和 数据 都 
是 要 分 布 在 每 个 节点 处 理 器 
上 ; 而 OpenMP 则 是 使 用 在 共 
享 内 存 的 系统 上 ， 只 有 控制 是 
分 布 在 多 个 处 理 器 上 的 。 


i PARALLEL REGION 


B 
SPREAD REGION/P (1:2) 
C 


REGION/P(3:8) 


D 
END SPREAD 


E 
VPP Fortran 有 两 种 分 解 SRO TIAN /(P) 
(SPREAD) 构造 ， 一 种 是 DDO 
ND SPREAD 
SPREAD REGION, 是 用 来 G 
描述 任务 如 何 分 解 的 ; 一 种 是 PEND PARALLEL 
SPREAD DO， 是 用 来 描述 循 Ee 
环 (LOOP) 是 如 何 分 解 的 。 a 
在 如 何 分 解 的 图 13，VPP Fortran 执行 的 例子 


一 组 PARALLEL REGION 

构造 或 者 SPREAD 构造 和 一 组 处 理 器 相对 应 ， 称 为 区 域 (Region)， 区 域 可 以 和 典 套 。 如 图 
13: C 被 分 派 到 了 处 理 器 1 和 2 上 ，D 被 分 派 到 了 处 理 器 3-8 Eo SPREAD DO 则 把 循环 的 
各 个 迭代 分 派 到 所 有 的 处 理 器 上 并 行 执 行 。 此 外 VPP Fortran 还 可 以 实现 分 区 索引 Cindex 
partition) 和 显 式 通信 。 


3.2 HPF/JA extension 


HPF/JA extensions?“ 5E-F VPP Fortran 的 特性 ， 在 HPF2.0 的 基础 上 所 做 的 系列 扩 
展 。 其 特性 包括 处 理 期 间 的 异步 通信 、 显 式 的 编译 制导 shadow. local directive (局 部 目录 ) 
等 。 这 些 特 性 也 是 VPP Fortran 中 在 处 理 真实 应 用 时 非常 有 用 的 。 这 里 给 出 一 个 HPF/JA 的 
例子 来 讲解 一 下 其 特性 : 


图 14 展示 了 一 个 如 何在 相 邻 处 理 器 上 存 取 数据 的 例子 ,其 中 左边 是 BT 基准 程序 的 HPF 
实现 。X 和 TU 数组 的 第 2 维 按 照 块 (BLOCK) 的 方式 进行 分 布 ， 并 且 对 下 面 的 循环 进行 并 
行 。 访 问 数组 X 是 本 地 访问 ， 但 是 U 数组 就 不 一 定 了 ， 这 是 由 于 TU 数组 的 下 标 访问 为 本 1、 
J-2、J+1、J+2 而 不 是 了 而 这 些 元 素 恰 好 会 被 映射 到 相 邻 的 处 理 器 上 。HPF2.0 通过 定义 shadow 
编译 制导 来 用 于 这 样 类 似 的 循环 ，shadow 指定 了 该 处 理 器 在 其 本 地 的 存储 器 上 有 一 块 内 存 
可 以 保存 相 邻 处 理 器 的 一 部 分 数据 ， 以 方便 存 取 。 
图 14(b) 显 示 了 如 何 利 用 shadow 编译 制导 ， 其 中 阅 的 第 2 维 上 下 边界 都 有 2 个 元 素 大 
小 的 shadow XER. Reflect 制导 在 循环 前 被 使 用 用 来 将 相 邻 处 理 器 的 边界 元 素 找 贝 到 当前 处 
理 器 的 本 地 存储 上 ， 这 就 保证 UU 被 存 取 之 前 是 局 部 的 ， 使 我 们 可 以 用 local 编译 制导 。 

其 中 local 编译 制导 被 引入 的 原因 如 下 : 即使 当 执 行 的 时 候 数 据 是 存放 在 同一 个 处 理 器 
上 ,而 编译 器 在 编译 的 时 候 不 知道 数据 在 哪里 ， 还 是 有 可 能 造成 存 取 低 效 。 原 因 是 在 运行 时 
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找到 数据 的 位 置 将 会 涉及 到 大 量 的 指令 执行 , 开销 比较 大 。 尽 管 数据 存放 的 位 置 大 多 数 时 候 
可 以 在 编译 的 时 候 被 分 析出 来 ， 但 是 仍旧 会 有 一 些 不 确定 性 ，local 编译 制导 被 引入 是 用 来 
告诉 编译 器 数据 确定 是 存放 在 当前 处 理 器 的 本 地 存储 上 , 从 而 优化 数据 存 取 , 提高 执行 效率 。 


!hpf processors p(4) 
!hpf distribute (*,block) 
thpf$& onto p:: x,u 
!hpf$ shadow u(0,2:2) 
!hpf$ processors p(4) : 
!hpf distribute (*,block) !hpf reflect u 
!hpf$& onto p :: x,u !hpf$ independent,new(i,j) 
; P do 100 j=3,n-2 

!hpf$ independent,new(i,j) !hpf$ on home(x(:,j)) begin 

do 100 j=3,n-2 

!hpf$ on home(x(:,j)) begin 

do 200 i=1,n 

5 x(i,j)=x(i,j)tu(i,j-2) 
& +u(i,j-1)+u(i,j) 
& tu(i, j+1)+u(i, j+2) 
200 end do 

'hpf$ end on 
100 end do 


'hpfj local begin 

do 200 i = 1,n 
x(i,j)=x(i,j)+u(i,j-2) 
& +u(i,j-1)+u(i,j) 
& t+u(i, j+1)+u(i, j+2) 
200 end do 

'hpfj end local 

!hpf end on 

100 enddo 


(a) 朴素 编码 (a) 利用 shadow 编译 
图 14. HPF/JA 和 HPF2.0 对 比 的 例子 〈 在 相 邻 处 理 器 上 存 取 数 据 ) 


uU U UD 0 V U 


P 
P 
P 
P 
P 
P 
P 
P 
P 


3.3 ICL DAP Fortran 


International Computing Limited 公司 生产 了 最 早 的 并 行 处 理 器 DAP, 并 为 之 开发 了 DAP 
Fortran. DAP Fortran "是 针对 FORTRAN 77 非 读 写 (IO) 部 分 的 扩展 ， 使 之 支持 数组 、 
矩阵 计算 。 


3.4 PGI® CUDA Fortran 


CUDA(Compute Unified Device Architecture) 5 是 显卡 厂商 英 伟 达 (nVIDIA) 推出 的 运 
算 平 台 。 CUDA 是 一 种 通用 并 行 计算 架构 。 该 架构 包含 了 CUDA MORE ASA) 以 及 
GPU 内 部 的 并 行 计算 引擎 ,使 GPU 能 够 解决 复杂 的 计算 问题 。 开发 人 员 现 在 可 以 使 用 C 语 
言 来 为 CUDA 架构 编写 程序 。 所 编写 出 的 程序 可 以 在 支持 CUDA 的 处 理 器 上 以 超 高 性 能 运 
行 。 


图 15 和 图 16 展示 了 一 个 分 块 矩 阵 乘法 的 例子 : 


CUDA 支持 FORTRAN 以 及 C++. CUDA Fortran 和 CUDA C 类 似 , CUDA FORTRAN 
是 英 伟 达 和 PGI 共同 制定 ， 在 PGI 的 FORTRAN 编译 器 中 实现 的 。 是 基于 编译 制导 的 ， 类 
似 OpenMP 的 接口 。 它 仍然 遵循 简单 的 异 构 环 境 的 编程 接口 。CPU 和 GPU 是 不 同 的 设备 ， 
拥有 不 同 的 地 址 空间 ， 宿 主 (HOST) 代码 运行 在 CPU ZE, Wwe (DEVICE) 代码 运行 在 


6 Premiere Global Services， 一 家 在 全 球 范围 内 提供 通信 技术 的 虚拟 协作 和 会 议 解 决 方案 的 跨国 公司 
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GPU 上 。 


The Portland Group 公司 和 英 伟 达 公司 合作 ， 定 义 了 一 个 小 的 Fortran 扩展 集合 ， 使 
蛙 序 员 可 以 在 Fortran 中 直接 对 CUDA 平台 进行 编程 ， 通 过 扩展 Fortran 90 的 定义 变量 
生 的 语法 、 内 存 分 配 语句 和 数组 赋值 来 自然 地 引入 对 CUDA FY Sc FF 


Hl ai 


SH 


= 


subroutine mmul(A,B,C_ ) 
! 
use cuda for 
real, dimension(:, ; )::A,B,C 
integer: :N,M,L 
real, device, allocatable, dimension(:, ; ) : :Adev, Bdev, Cdev 
type(dim3) ::dimGrid, dimBlock 


N=size(A,1); M=size(A,2); L=size(B,2) 

allocate(Adev(N,M), Bdev(M,L),Cdev(N,L)) 

Adev=A(1:N,1:M) 

Bdev=B(1:M,1:L) 

dimGr id=dim3(N/16,L/16,1) 

dimBlock=dim3(16,16,1) 

call mmul_kernel<<<dimGrid, dimBlock>>>(Adev, Bdev, Cdev,N,M,L) 
C(1i:N,1:M) = Cdev 

deallocate(Adev, Bdev, Cdev ) 


end subroutine 


图 15. CUDA Fortran 调用 GPU kernel 示例 


attributes(global) subroutine MMUL_KERNEL( A,B,C,N,M,L) 


real,device :: A(N,M),B(M,L),C(N,L) 
integer,value :: N,M,L 

integer :: i,j,kb,k,tx,ty 

realshared :: Ab(16,16),Bb(16,16) 
real :: Cij 


tx=threadidx%x ; ty=threadidx%y 
i=(blockidx%x-1) *16+tx 
j=(blockidx%y-1)*16+ty 
Cij= 0.0 
do kb=1,M,16 
! 从 Ab 和 Bb 各 读 取 一 个 元 素 ; 注意 在 本 进程 块 中 有 16x16 = 256 个 进程 在 分 别 读 
取 Ab 和 Bb 的 元 素 
Ab(tx,ty)=A(i,kb+ty-1) 
Bb(tx, ty)=B(kb+tx-1,j) 
! 等 候 直 到 Ab 和 Bb 的 所 有 元 素 都 被 填充 
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call Syncthreads() 
do k=1,16 
Cij=Cij+Ab(tx,k)*Bb(k, ty) 
enddo 
! 等 候 直 到 进程 块 内 在 本 次 迭代 中 涉及 Ab 和 Bb 的 所 有 进程 侈 部 完成 
call syncthreads() 
enddo 
e(a) = Ci 


end subroutine 


16. CUDA Fortran GPU kernel 示例 


3.5 Cray Parallelization Directives 

wE (Cray) 公司 的 Cray Fortran 编译 工具 链 中 包括 了 大 量 该 公司 的 私有 制导 信息 
的 支持 。 这 些 制导 信息 除了 可 以 用 来 控制 编译 器 特性 , 还 可 以 用 来 标记 需要 自动 线程 并 行 的 
循环 等 。 


3.6 Sun Parallelization Directives 


Oracle 的 Sun Studio 开发 环境 的 中 除了 对 于 标准 的 OpenMP 有 支持 之 外 , 亦 有 对 于 Cray 
和 Sun 私有 格式 的 ， 用 于 Fortran 95 之 后 的 FORALL 结构 上 的 并 行 制导 的 少量 文 持 。 


4 总结 


本 文 综述 了 自 Fortran 77 以 来 ， 对 于 Fortran 语言 的 并 行 扩展 ， 其 中 最 主要 的 为 HPF 
和 Co-array Fortran， 应 用 广泛 ， 文 持 较 多 。 


Fortran 语言 是 一 种 极 具 发 展 潜力 的 语言 ， 在 全 球 范围 内 流行 过 程 中 ，Fortran 语言 的 
标准 化 不 断 吸 收 现代 化 编程 语言 的 新 特性 ， 并 且 在 工程 计算 领域 仍然 占有 重要 地 位 。 


在 数值 计算 中 ，Fortran 语言 仍然 不 可 替代 。Fortran 90 标准 引入 了 数组 计算 等 非常 利 
于 矩阵 运算 的 功能 。 在 数组 运算 时 ，Fortran 能 够 自动 进行 并 行 运 算 ， 这 是 很 多 编程 语言 不 
具备 的 。Fortran 语言 使 用 户 能 够 运用 很 多 现成 的 函数 软件 包 ， 所 以 非常 便利 。 


Fortran 语言 并 没有 因为 其 历史 悠久 ， 跟 不 上 发 展 的 脚步 而 走向 没落 ， 反 而 逐渐 引入 了 
新 语言 的 特性 ， 加 入 新 硬件 的 支持 ， 改 进 旧 的 并 行 扩展 等 等 ， 例 如 Co-Array 在 近 几 年 得 到 
广泛 支持 并 成 为 Fortran 2008 的 标准 。Fortran 对 新 兴 加 速 器 ， 例 如 GPU CUDA 编程 的 支 
持 等 等 说 明 其 正 与 时 俱 进 的 发 展 着 。 且 由 于 Fortran 语言 一 直 在 高 性 能 计算 领域 占据 主要 地 
位 , 各 种 工具 和 高 性 能 计算 软件 包 , 数学 库 等 比较 完善 , 为 其 今后 的 发 展 提供 了 良好 的 基础 。 
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